摘要。复制天生的人类根据任何粒度的自由形式文本检测所有对象仍然是大型视觉语言模型(LVLM)的强大挑战。当前的LVLM主要限制以定位单个预先存在的对象。此限制导致模型设计的妥协,因此需要进行视觉专家模型或定制的头部结构。除了这些约束之外,我们的研究还发现了LVLMS的基本观念能力,从而使它们能够准确地识别并找到感兴趣的对象。基于这种见解,我们引入了一种新颖的语言,促使本地化数据集充分释放了LVLM在细颗粒对象感知和精确的位置意识中的能力。更重要的是,我们提出了纯粹基于LVLM的基线Griffon,它不会引入任何特殊的代币,专家模型或其他分解模块。它通过在各种与本地化相关的方案中统一数据格式,通过统一数据格式保持与人口LVLM的一致结构,并通过设计良好的管道进行了端到端训练。全面的实验表明,格里芬不仅在细粒度的reccoco系列和flickr30k实体上实现了最新的性能,而且还可以在检测基准MSCOCO上更快地接近专家模型的能力。数据,代码和模型在https://github.com/jefferyzhan/griffon上发布。
主要关键词